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Verfahren und Vorrichtung zum Ermitteln einer Menge groBer Sequenzen 
aus einer elektronischen Datenbank 

Die Erfindung liegt auf dem Gebiet der Sequenzanalyse in elektronischen Datenbanken, 

Hintergrund 

Sequenzanalysen. extrahieren Sequenzen von Elementen aus transaktionalen elektronischen 
Datcn. In dem MaGe, in dem transaktionale Daten zunehmend elektronisch erfasst werden, 
gewinnen Sequenzanalysen an Bedeutimg. 

Ein Anwendungsbeispiel ftir Sequenzanalysen stellt die Clickstreamanalyse dar, in welcher 
typiscbe Nutzerpfade von Nutzern von Websites berechnet werden. Weitere Bcispiele von 
Sequenzanalysen sind die Textanalyse zur Extraktion. charakteristischer Wortfolgen in elek- 
tronisch gespeicherten Dokumenten sowie die Warenkorbanalyse unter Berttcksichtigung der 
Produktreihcnfolge im Handel zur Bestimmung typischer Produktkettenkaufe. VielJfcltige 
Anwendungen der Sequenzanalyse finden sich femer in der Chemie sowie in der Genetik. 

Deizeit existicren erne Vielzahl spezialisierter Verfahren zur Sequenzanalyse, insbesondere 
im Bereich der Genetik, jedoch sind mir wenige universelle verwendbax. Im einfachsten Fall 
werden hierbei alle Varianten moglicher Sequenzen auf deren Haufigkejt untersucht, doch ist 
dies aus Grtindcn der Rechenkapazit&t nur fur kleine Datenmengen moglich. Eine Alternative 
sind Sequenzanalysealgorithrnen, welche auf SuchbSumen basieren, beispielsweise der Algo- 
rithmus „Capri" der Firma Lumio (http://www.spssxom/PDFs/CP2SPCZ- 1201.pdf). Doch ist 
auch deren Gcschwindigkeit zur Analyse grofler Transaktionsdaten unzureichend. Eine 
schnellcre Alternative stellen Verfahren dar, welche auf Ideen der klassischen Warenkorba- 
nalyse beruhen und bereits fttr die sequentielle Warenkorbanalyse genutzt wurden (Agrawal 
R., Srikant R. Mining Sequential Patteims. IBM Almaden Research Center; 650 Harry Road, 
San Jose), 

25 Die Erfindong 

Aufgabe der Erfmdung ist es, ein Verfahren und eine Vorrichtung zum Ermitteln einer Menge 
groDer Sequenzen aus einer elektronischen Datenbank anzugeben, mit denen die Nachteile 
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des Standes der Technic uberwunden werden, insbesondere eine effiziente Sequenzanalyse 
bei grofler Datenmeugen in verschiedenen AnwendungsMen ausgefiihrt werden kann. 

Nach einem Aspekt der Erfindung ist ein Verfahren zum Ermitteln einer Menge groi3er Se- 
quenzen aus einer elektronischen Datenbank mit einer Folge D-{dl, dn} von Transaktio- 
5 nen di (1 < i < n) in einem Computersystem mit einem implementierten Abfragemodul ge- 
schaffen, wobei jede der grofien Sequenzen auf der Folge D von Transaktionen di einen 
Sttitzwert aufweist, der groBer oder gleich einem vorgegebenen Stiitzwert S ist, wobei jede 
der Transaktionen di der Folge D eine Sequenz von Elementen eines Satzes E={el, em} 
von Elementen ej (1 < j < m) ist und wobei das Verfahren die folgenden Schritte umfaflt: 
10 a) Ermitteln einer Menge LI groBer Sequenzen aus der Folge D von Transaktionen, wobei 
die groflen Sequenzen der Menge LI jeweih genau ein Element des Satzes E umfassen 
und ein zugehSriger Stiitzwert Su auf der Folge D von Transaktionen jeweils grofler oder 
gleich dem vorgegebenen Stiitzwert S ist; 
b) Ermitteln einer Menge L2 grofler Sequenzen aus der Folge D von Transaktionen, wobei 
15 die groflen Sequenzen der Menge L2 jeweils genau zwei Elemente des Satzes E in einer 

jeweiligen Reihenfolge Ru umfassen und ein zugehSriger Sttitzwert Su auf der Folge D 
von Transaktionen jeweils groBer oder gleich dem vorgegebenen Stiitzwert S ist und wo- 
bei beim Ermitteln der Menge L2 grofler Sequenzen nur Sequenzen berttcksichtigt wer- 
den, die als Teilsequenz eine der groflen Sequenzen der Menge LI umfassen; 
20 c) Ermitteln. einer Menge Lk (k > 2) grofler Sequenzen aus der Folge D von Transaktionen, 
wobei die groflen Sequenzen der Menge Lk jeweils genau k Elemente des Satzes E in ei- 
ner jeweiligen Reihenfolge R L v umfassen und ein zugehoriger Sttitzwert Sue auf der Folge 
D von Transaktionen jeweils grofler oder gleich dem vorgegebenen Sttitzwert S ist, wobei 
beim Ermitteln der Menge Lk nur Sequenzen beriicksichtigt werden, die als sich teilweise 
25 uberlappende Teilsequenzen zwei der groflen Sequenzen der Menge Lk-1 mit der jeweili- 

gen Reihenfolge RLk-1 umfassen; und 
d) Wiederholen des Schrittes c) fur k=k+l und Abbrechen des Wiederholens des Schrittes c) 
beim Erfiillen einer vorgegebenen Abbruchbedingung. 



Nach einem anderen Aspekt der Erfindung ist eine integriertes Sequenzanalysesystem ge- 
schaffen, mit: 
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- einer elektronischen Datenbank mit einer Folge D={dl, dn} von Transaktionen di (1 < i 
< n), wobei jede der groBen Sequenzen. auf der Folge D von Transaktionen di einen Sttitz- 
wett aufweist, der grfjfler odcr gleich einem vorgegebenen Stutzwert S ist, wobei jede der 
Transaktionen di der Folge D eine Sequenz von Elementen ein.es Satzes E~{ol em} 

5 von Elementen ej (1 < j < m) ist; 

- einem Abfragemodul, welches eine mit der Datenbank gekoppelte Abfrageeinrichtung und 
eine Verarbeitungseinrichtung zum Erfassen von Abfrageparametern und zum Erzeugen 
von Abfragen an die Abfrageeinrichtung umfaBt; 

- Mitteln zum Ermitteln einer Menge LI groBer Sequenzen aus der Folge D von Trausaktio- 
1,0 nen, wobei die groBen Sequenzen der Menge LI jeweils genau ein Element de$ Satzes E 

umfassen und ein zugehOriger Stutzwert S L ] auf der Folge D von Transaktionen jeweils 
groBer oder gleich dem vorgegebenen Stutzwert S ist; 

- Mitteln zum Eimitteln einer Menge L2 groBer Sequenzen aus der Folge D von Transaktio- 
nen, wobei die groBen Sequenzen der Menge L2 jeweils genau zwei Elemente des Satzes E 

15 in einer jeweilj gen Reihenfolge Ru umfassen und ein zugehBriger Stutzwert Sl2 auf der 
Folge D von Transaktionen jeweils grflBer oder gleich dem vorgegebenen Sttttewert S ist 
und wobei beitn Ermitteln der Menge L2 groBer Sequenzen nur Sequenzen beriicksichtigt 
werden, die als Teilsequenz eine der groflen Sequenzen der Menge LI umfassen; 

- Mitteln zum Ermitteln einer Menge Lk (k > 2) groBer Sequenzen aus der Folge D von 
20 Transaktionen, wobei die groBen Sequenzen der Menge Lk jeweils genau k Elemente des 

Satzes E in einer jeweiligen Reihenfolge R L k umfassen utid ein zugehoriger Stiitzwert Slr 
auf der Folge D von Transaktionen jeweils grflBer oder gleich dem vorgegebenen Sttttzwert 
S ist, wobei beim Ermitteln der Menge Lk nur Sequenzen beriicksichtigt werden, die als 
sich teilweise iiberlappende Teilsequenzen zwei der groBen Sequenzen der Menge Lk-1 
25 mit der jewejljgen Reihenfolge Ruc-i umfassen; und 

- Mitteln zum Wiederholen des Schrittes c) fiir k=k+l und Abbrechen des Wiederholens des 
Schrittes c) beim. Erfllllen einer vorgegebenen Abbruchbedingung. 

Im Unterschied zur klassischen Warenkorbanalyse wird bei der Erfindung die Reihenfolge 
der Elemente in den Transaktionen beriicksichtigt. Mit Hilfe der Erfindung kOnnen umfang- 

30 

reiche elektronische Datenmengen nach charakteristischen Sequenzen effizient hinsichtlich 
des benStigten Zeitaufwands und der notwendigen Rechenkapazitat automatisch ausgewertet 



werden. Hierdurch wird erstmalig die sequentielle Analyse groBer Datenraengen m6glich, wie 
sie beispielsweisc Logfiles stark frequentierter Webserver aufweisen. 



Zeicbnung 

Die Erfmdung wird im foigenden anliand von Ausfuhrungsbeispielen unter Bezugnahme auf 
eine Zeichnung nSher erlSutert. Hierbei zeigen: 

Figur 1 eine schematische Darstellung zur Erlauterung eines Verfahrens zur Sequcnzana- 
lyse nach der Erfmdung m Verbindung mit einer Clickstreamanalyse; 

Figur 2 eine schematische Darstellung einer Anordnung mm Ausfuhren eines Verfahrens 
zur Sequenzanalyse nach der Erfindung; 

Figur 3 ein Ablaufdiagramm fur eine Ausftthrungsform eines Verfahrens zur Sequenza- 
nalyse nach der Erfmdung gemaB einer ersten Variante; und 

Figur 4 ein Ablaufdiagramm fur eine Ausfuhrungsform eines Verfahrens zur Sequenza- 
nalyse nach der Erfmdung gemaB einer zweiten Variante. 

Beispielhafte Ausfuhrungsformen 

Im folgenden werden ein Verfahren und eine Vomchtung zum Ermitteln einer Menge groBer 
Sequenzen aus einer elektronischen Datenbank unter Bezugnabme auf die Figuren 1 bis 4 
beschreiben. 

Zunachst soil das bei einer Sequenzanalyse zu ltfsende Problem im Detail erlSutert werden. Es 
sei E = {el, e2, em} ein Satz von Literalcn, welcbe als Elemente bezeichnet werden. Eine 
Sequenz <so, su . Sk> sei eine geordnete Liste von Elementen. Es sei D^{dl, d2» dn} ein 
Satz von Tramaktionen, wobei jede Transaktion di (15 i < n) eine Sequenz von Elementen 
aus E ist, so daB gilt: di c E. Jeder Transaktion di wird ein eindeutiger Identifikator zugeord- 
net, gekennzeichnet als „di-ID" 

Die Sequenz <a0, al, ak> ist enthalten (Teilsequenz) in einer anderen Sequenz <b0, bl, 
. . bl>, wenn naturliche nichtnegative Zahlen ij < t2 <-..< ik existieren, so daB 

al =bii; a2 = bij; ak = bi|< 
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Es wird definiert, dass erne Sequenz A eine Stutzung (support) s% auf der Menge der Trans- 
aktionen D bcsitzt, wenn $ie iri s% aller Transaktionen der Menge D enthalten ist. Wir be- 
zeichnen eine Sequenz als grofl, wenn gilt, dass ihr Support nicht kleiner als ein vorgcgebener 
Minimalwert ist. Eine Sequenz der Latige k wird als k-Sequenz bezeichnet. Im weiteren wird 
die Menge aller k-Sequenzen als Lk bezeicbnet. Die Menge aller k-Sequenzen, welche poten- 
ziell groB sein konnen, wird als Ck bezeichnet. 

Die Menge E kann eindeutig auf eine Untermenge nattirlicher Zahlen abgcbildet werden, das 
beifit, jedem Element aus E kann ein emdeutiger nattirlicher Identjfikator zugeorduet werden. 

Unter Benutzung der eingeffihrten Begriffe kann die Aufgabe folgendermaGeti formuliert 
werden. Auf Basis der vorgegebenen Mengen E und D sollen alle Sequenzen gefunden wer- 
den, deren Supportwert groBer oder gleich einem vorgegebenen Minimalwert ist, das heiflt, es 
wird die folgende Menge gesucht: 



k 

Ein bekaunter Ansatz zur Ltfsung dieser Aufgabe besteht in der. Auflistung aller moglichen 
Sequenzen aus Elementen der Menge E und dem Auszahlen der sic enthaltenden Transaktio- 
nen. Es wird die Anzahl aller moglichen Sequenzen aus Elementen der Menge E mit der L8n- 
ge von 1 bis k gefunden. Die Machtigkeit der Menge E ist m. Die AnzaW der Sequenzen der 
Lange 1 ist gleich der Anzahl der Elemente der Menge E, also m. Die Anzahl aller mSglichen 
Sequenzen der LSnge i aus m Elementen ist m\ Dann ist die Anzahl aller Sequenzen N gleich 
der Summe der geometrischeu Reihe zur Basis m: 



/=i 



100" -100 a0 

Bereits fur m = 100 und k -» 10 erhalten wir ioo - 1 verschiedene Sequenzen. 

Es ist klar, dass ein solcher Ansatz zur Losung der Aufgabe unakzeptabel ist. Fur reale Daten 
sind in alien Transaktionen der Menge D deutlich weniger Sequenzen enthalten. 
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Weit logischer und schneller ist der Test aller Sequenzen, welche in jeder Transaktion ent- 
halten sind und die Bestimmung des Supportwertes fiir jede von ihnen. Ajngenommen, die 
Lange der Transaktion dO ist gleich m. Dann enthait die Transaktion dO die Anzahl aller Se- 
quenzen der Lange i, welcbe gleich der Menge der i Kombinationen der Elemente tlber m ist. 
Dann ist die gesamte Anzahl der Sequenzen N, welche in einer Transaktion der Lange m ent- 
halten sind, gleich: 

Eine Transaktion der Lange 10 enthalt 1023 Sequenzen, eine Transaktion der L&nge 20 ent- 
halt 1048575 Sequenzen der Langen von 1 bis 10 und entsprechend 20. Obwohl die ange- 
fiihrten Zahlen den ungunstigsten Fall beschreiben, kann die Anzahl der rooglichen Sequen- 
zen, welche in einer Transaktion enthalten sind, dennoch sehr grofl werden. 

Jede dieser Sequenzen muB auf ihre minimale Supportbedingung getestet, das heiBt, es muB 
die Summe der sie enthaltenen Transaktionen gebildet werden. Es ist klar, dass dicser ProzeB 
ebenfalls sehr zeitjntensiv ist. In den hier beschriebenen Verfahren nach der Erfindung wird 
deshalb ein Ansatz verwendet, welcher keine uberflussigen Tests benotjgt. 

Im folgenden werden zwei Variante der Extraktion groBer Sequenzen beschrieben. Beide nut- 
zen einen gemeinsamen Satz grundlegender Ideen, aber unterscheiden sich in der Summation 
der Supportwerte der Sequenzen. 

Die Verfahren gehflren zur Klasse der Iterationsverfahren. In jedem Arbeitsschritt der Verfah- 
ren werden alle grpBen Sequenzen einer gegebenen Lange bestimmt. Die Arbeit der Verfah- 
ren dauert solange, bis alle groBen Sequenzen. maximaler Lange gefimden wurden, das hciflt, . 
bis im vorliegenden Arbeitsschritt keine weiteren groBen Sequenzen gefunden werden. Ein 
anderes Kriterium zur Temunierung des Verfahrens kann das Erreichen einer maximalen 
LSnge der Sequenzen sein, welche vom Nutzer vorgegeben worden ist. 

In beiden Varianten des Verfahrens werden die groBen Sequenzen der LSnge k benutzt, um 
die Menge neuer potentieJler groBer Sequenzen der Lange k+1 zu konstruieren. Wir bezeich- 
nen eine Sequenz als Kandidat, wenn diese aus groflen Sequenzen der um Eins verminderten 



LSnge generiert worden ist und moglicherweise ebenfalls eine grofle Sequenz darstellt Auf 
diese Weise bildet die Menge der Kandidaten der LSnge k die Menge Ck. Offensichtlich gilt: 
Ck^Lk, 

1 , Methode zur Generierung der Kandidatenmenze 

5 Beide Verfahren nutzen das gleiche Prinzip der Generierung von Kandidaten, welches sich 
etwas von dern der Generierung der Kandidaten im oben genannten Ansatz von IBM unter- 
scheidet. Die Funktion zur Generierung der Kandidaten nutzt als Eingangsmenge alle gcoBen 
k-Sequenzen - Lk Sie liefert im Ergebnis eine Supermenge der Mengen aller groflen (k+l> 
Sequenzen - Ck+1. Unter Nutzung einer SQL-artigen Syntax kann das Verfahren der Gene- 
1 0 rierung der Kandidatenraenge folgendennafien aufgeschrieben werden: 

INSERT INTO Ck 

SELECT p.itemi,p.item2v • .,p.item k ,q.itenik 
FROM p,q 

WHERE p.item2= qatemj, p.item 3 = q.item 2> • • ♦ > p-item* = q.itenvi 

15 Die Arbeitsweise der Generierung der Kandidaten kann anhand folgenden Beispiels veran- 
schaulicht werden. 

Angenommen, in einem Schritt der Arbeit des Verfahrens sind folgende grofle Sequenzen der 
Lange 4 geftinden worden: 

1. 13 26 
20 2. 1 412 

3. 2 1 32 

4. 2 22 2 

5. 3 1 2 1 

6. 3 2 62 
25 7. 4 1 21 

Mittels Durchgehen aller moglicben Paare grofier 4-Sequenzen, begirmend mit dem ersten, 
und unter Einschlufl auch aller aus der gleichen Sequenz bestebenden, erhalt man folgende 
Kandidatenmenge; 

1 3 2 6 2 — Ergebnis der Vereinigung von 1 und 6 
30 14 12 1- Ergebnis der Vereinigung von 2 und 7 

2 1 3 2 6 - Ergebnis der Vereinigung von 3 und 1 
2 2 2 2 2 - Ergebnis der Vereinigung von 4 und 4 
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Die Sequenzen 5., 6. und 7. lieferten kein einziges Paar, in welchem sie die ersten der „E1- 
tera" w3ren; die Sequenz 5. war Uberhaupt nicht an der Generiemhg von Kandidaten beteiligt; 
die Sequenz 4. wurde mit sich selbst vereinigt. 

Im Ergebnis der Arbeit des Verfahrens kann eine Situation entstehen, in der mittels dieser 
Methode keine einzige Kandidaten-Sequenz generiert wird. Das bedeutet, dass es nicht mog- 
lich ist, auch nur eine einzige Sequenz des nachsten, k+l-ten, Levels zu fmden. Folglich ter- 
miniert das Verfahren in diesem Schritt. 

Im dargelegten Beispiel wurden zur Konstruktion der Kandidatenmenge alle mtfglichen Paare 
grofler Sequenzen des vorhergehenden Levels herangezogen. WShrend der Arbeit des Verfah- 
rens auf realen Daten kann es leicht passieren, in einem gewissen Schritt eine Menge aller 
groBen Sequenzen zu finden, welche aus Tausenden oder Zehntausenden Sequenzen besteht. 
Der ProzeB der vollstandigen Durchsicht aller Paare besitzt eine quadratische Komplexitat 
Daher miisste man auf realen Daten Millionen oder Hunderte von Millionen Operationen zum. 
Vergleich von Sequenzen ausftthren. Das kann zu emsthaftem Zeitaufwand fUr den. ProzeB 
der Kandidatengenerierung fiihren. 

Daher wurde eine Datenstruktur erarbeitet, welche es erlaubt, die Komplexitat der Durchsicht 
der Paare groBer Sequenzen zu verringem, GemSB dieser Idee ist es notwendig, fur jede groflc 
k-Sequenz die erste und die letzte groBe (k+l)-Sequenz zu speichem, welche mit der be- 
trachteten k-Sequenz beginnen. Natiirlich ist es dafiir notwendig, daB der Satz der k- 
Sequenzen von den kleinen k-Sequenzen zu den groflen Sequenzen sortiert wird. Die k- 
Sequenz A wird als kleiner als die k-Sequenz B definiert, wenn das erste verschiedene Ele- 
ment in der Sequenz A kleiner als in der Sequenz B ist. 

Somit besitzen wir in einem Schritt des Verfahrens Lk - die Menge der groBen k-Sequenzen 
des vorangegangenen Schrittes, Ck+1 - die Menge der Kandidaten. Weiterhin wird fur jede k- 
Sequenz aus Lk die Nummer des zweiten „Elternteils u gespeichert, welcher diese Sequenz 
generiert hat. Unter Benutzung dieser Nummer kann fur jede k-Sequenz gleich das Spektrum 
der Sequenzen aus Lk bestimmt werden, mit welchen diese vereinigt werden kann. Diese 
Datenstruktur wird in beiden Varianten des beschriebenen Verfahrens genutzt Zur Speiche- 
rung der benotigten Nummern filr die Sequenzen aus Lk-1 wird ein dynamisches Array der 
Dimension |Lk~l|x2 genutzt. 
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Im k-ten Schritt liegt die Menge der groflen Sequenzen Lk vor, mit jeder von denen die 
Nummer derjenigen Sequenz aus Lk-1 verbunden ist, welche den zweiten „Eltemteir bildct. 
Im Ergebnis der Arbeit erhSlt man im k-ten Schritt aus Ck+1 die Menge Lk+1, fUr deren Se- 
quenzen die Nummer ihres zweiten Elternteils gespeichert werden, und es wird cine neue 
5 Struktur aus den Nummern der Sequenzen aus Lk geformt. 

Im oben angeflihrten Beispiel wurde die Sequenz <2 1 3 2> im vorhergehenden Schritt aus 
den Sequenzen <2 1 3> und <1 3 2> geformt. Angenommen, die Sequenz <1 3 2> stand in der 
Nummer 3 der Liste der Sequenzen L3. Dann musseu in der beschriebenen Struktur fui die 
Sequenz der Nummer 3 die Nummern 1 und 1 gespeichert werden - entsprechend der ersten 

10 

und letzten Sequenz aus L4, welche mit <1 3 2> beginnen. Ftlr die neue Sequenz <2 1 3 2 6> 
wird, falls sie sich als groJJ erwjesen hat, die Nummer ihres zweiten Elternteils gespeichert - 

1, fur die Sequenz <2 1 3 2> die Nummer 3 - die Nummer der ersten neuen erhaltenen 5- 
Sequenz. 

Wenn fur eine Sequenz aus Lk-1 kein Nachfahre existiert, wird dieser Fakt in der Struktur der 
1 5 Nummern iiber erne ungtiltige Nummer gespeichert - beispielsweise -1 . 

2. Erste Variants 

Der ProzeB der Arbeit des ersten Verfahrens kann in mehrerc Etappen aufgcgliedert werden: 
(j) Suche aller groflen 1 -Sequenzen - der verschiedenen Elemente aus E - LI . 

(ii) Suche aller groflen 2-Sequenzen - L2 auf Grundlage von LI . Gleichzeitig wird filr jede 
20 gefuudene groBe Sequenz die Liste der Transaktionsnummern, welche diese enthalten, 

abgespeichert, 

(iii) Suche der groBen k-Sequenzen auf Grundlage von Lk-1. Die Etappe 3 wird solange 
wiederholt, bis L* = 0 erhalten wurde. 

Die erste Variante des Verfahrens, fur die Figur 3 schematisch ein Ablaufdiagramm zeigt, 
25 kann in Pseudocode wie folgt dargestellt werden: 
LI - {large 1 -sequences}; 

C2 = candidate-gen(Ll ); // 2-Kandidaten 

forall transactions t e D do begin 

Ct = subset(C2,t) ; // Kandidaten, welche in t enthalten sind 
30 forall candidates c e Ct do 
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c.count++; 

end 

L2 = (c e C2| c.cgunt £ ruinsupp} ; 
for (k=3; Lk-1 * 0; k++) do begin 
Ck = candidate-gen(Lk-l); 
forall candidates c e Ck do,begin 

Tc = subset(c,D); // Transaktionen, welche c enthalten 
c.support = |Tc|; 

end 

Lk = {c e Ck | exount £ minsupp}; 

end 

answer = Ul-k; 

In der ersten Variantc des Verfahrens werden zwei Ansatzc zur Auszahlung der Supportwerte 
der Kandidatcn-Sequenzeu kombiniert. Zum Auffinden der Menge L2 wird dcr sequentielle 
Duvchgang durch die Mcnge der Eingangstransaktioncn genutzt Fur jede Transaktion wciden 
die darin enthallenen Kandidaten bestimmt, und fur jeden Kandidaten wird dcr Zahler des 
Supportwertes urn Eins erboht. 

In dcr ersten Variante des Verfahrens wurde in dicser JEtappe der gleiche Ansatz gewahlt wie 
in dcr nachsten Etappe: Fur jeden Kandidaten wird die Liste der Transaktionen bestiromt, 
welche diesen Kandidaten enthalten ktfnnen. Die Liste dcr Transaktionen crgibt sich als 
Schnittmcnge uber den gespcicherten Transaktionslisten der Eltern des betrachteten Kandi- 
daten. Offensichtlich kann die Kandidaten-Sequcnz nur in den Transaktionen enthalten sein, 
in denen gleichzeilig beidc Eltemteile dieses Kandidaten gespeichert sind. Die Liste dcr 
Transaktionen des Kandidaten enthalt die Nummem der Transaktionen und unter Nutzung der 
Schnittmengenbildung werden dahin nur diejenigen Nummern hinzugefiigt, welche in den 
Listen dcr Transaktionen seiner beiden Elterntcile enthalten sind. Die dcrart erhaJtene Liste 
erlaubt eine substantieUe Reduktion der Anzahl der Transaktionen, welche auf das Vorhau- 
densein eines bestimmten Kandidaten getestet werden mussen, besonders in den letzten 
Schritten des Verfahrens. 

Jedoch setzt der Ansatz der Transaktionslisten den Durchlauf durch die Gesamtmcngc dor 
Kandidaten voraus. In dcr zwciten Etappe des Verfahrens, bei der Auszahlung dcr Menge L2, 
sind nur die Elcmcntc dcr Menge LI bekanot Ein beliebiges Paar grofier 1-Scqucnzcn bildet 
cincn Kandidaten der Lange 2. Wahrend dcr Arbeit des Verfahrens rnit realen Daten kann die 
Machtigkeit der Menge LI einige zehntausend 1 -Sequenzen enreichen. Dann betragt die An- 
zahl der Kandidaten der LSnge 2 einige hundert Millionen, Eine vollstandige Durchsicht aller 
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moglichen Kandidaten wtirde einen unvertretbar hohen Zeitaufwand erfordern. Es ist siiui- 
voller, in diesem Fall den Ansatz zu wShlen, welcher vollstandig in der zweiten Variante des 
Verfahrens benutzt wurde. 

GemaB der grundlegenden Idee der zweiten Variante des Verfahrens, wird fllr jedcn Kandi- 
daten ein Zahler seines Supportwertes eingefiihrt. Danach erfolgt der sequenticlle Durchgatig 
durch die Eingangsmenge der Transaktionen. Ftir jede Transaktion werden die in ihr enthalten 
Kandidaten bestimmt und ihre Zahler des Supports werden urn Eins erhoht. In der zwciten 
Variante des Verfahrens wird ein komplexeres Schema zur Bestimmung der Kandidaten gc- 
nutet, welche in einer konkreten Transaktion enthalten sind, aber zur Bestimmung der Menge 
L2 katui eine einfachere Metbode verwendet werden. Zur Bestimmung der Nummern aller 
Kandidaten sind zwei Durchlaufe durch die Transaktionen notwendig, von denen der eine in 
den anderen eingebettet ist, Im Sufieren Zyklus werden nacheinander die groBen Elemcnte 
gewahlt, welche in den Transaktionen enthalten sind; die nicht-groBen Elemente werden aus- 
gelassen. Der innere Zyklus beginnt mit dem Element, welches auf das in dera auBeren Zy- 
klus ausgewahlte Element folgt Jedes ausgewahlte Paar grofler Elemente der Menge E stellt 
einen Kandidaten dor Lange 2 dar und folglich ist es notwendig, den entsprechenden Zahler 
des Supportwertes des Kandidaten zu erhohen. Die Nummer des Zahlers wird ausgehend aus 
den Indexen der ausgewShlten Elemente in der Liste der groBen Elemente und der Gcsamteahl 
der gefimdenen groBen Elemente berechnet. Seien a und b - die entsprechend gewahlten er- 
sten und zweiten Elemente eines Kandidaten und N - die Anzahl der in der vorhergehenden 
Etappe des Verfahrens gefimdenen 1-Sequenzen - der groBen Elemente aus LI. Dann ergibt 
sich die Nummer des entsprechenden Kandidaten gem&B folgender Formel: tic " Na + b. 

Zum AusschlieBen der wiederholten Erhohung des Zahlers des Supports eines speziellen 
Kandidaten bei der Behandlung ein und derselben Transaktion ist es notwendig, eine Methode 
zur Markierung des Faktes der Erhtfhung des Zahlers einer konkreten Transaktion vorzuse- 
hen. Die einfachste Methode besteht darin, fur jeden Kandidaten aufler seinem Zahler des 
Supports zusfitzlich die Nummer der letzten Transaktion zu speichern, welche den Zahler des 
bettacbteten Kandidaten inkrementiert hat. Da die Transaktionen aus der Eingangsmenge 
nacheinander behandelt werden, kann iiber den Inbalt des Feldes der Nummer der letzten 
Transaktion festgestellt werden, ob der ZShler seit Beginxr der Behandlung der betrachteten 
konkreten Transaktion erhoht wurde. 
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DeT Vorteil der beschriebenen Vorgehensweise zur Bestimmung der 2-Sequenzen L2 ist die 
relative Einfachheit der Berechnungen, da nur diejenigen Kandidaten behandelt werden, wcl- 
che tatsachlich in den Eingangstransaktionen enthalten sind. Allerdings besitzt diese Methode 
auch einen gravierenden Nachteil. Ftir jeden Kandidaten mussen zwei mit ihm vcrbundene 
Werte gespeicbert werden: der ZShler des Supportwertes und die Nummer der letzten, den 
Zahler inkrementierenden, Transaktion. Die Nutzung eines 32-bit Wertes fur jedes Feld, wel- 
ches tbeoretisch die Bearbeitung von maximal 2147483647 Trausaktionen erlaubt, erfordert 8 
Byte pro Kandidat In der Etappe der Bestimmung der Menge L2 kfinnen Hundertc Millionen 
verschiedener Kandidaten existieren. Foiglich benfltigt diese Etappe der Arbeit des Verfah- 
rens einige hundert Millionen Byte RAM-Speicher, was durchaus eine emsthafte EinschrSn- 
kung darstellt. Die quadratische AbhSngigkeit des bendtigten Speichers von der Anzahl der in 
der vorhergehenden Etappe gefundenen groflen 1-Sequenzen stellt eine emsthafte Einschran- 
kung dar. 

Um diese Beschrankung zu beseitigen, wurde in der endgiiltigen Form des ersten Verfahrens 
ein Schema des Mehrfachdurchlaufes der Bearbeitung der Transaktionsmenge im Verlauf der 
Konstruktion der Menge L2 realisiert. Wahrend eines vollstandigen Durchlaufes durch die 
Eingangsmenge der Transaktionen werden nur diejenigen Paare behandelt, deren crstes Ele- 
ment sich in einem. bestimmten Werteberejch befindet Auf diese Weise kann der Speicher- 
plate, welcher fiir die zweite Etappe des Verfahrens benfitigt wird, unter Berucksichtigung des 
im Rechner verfugbaren Speicherplatzes beschrankt werden. Selbstverstandtich werden mit 
starkeren Speicberbeschrankungen umso mehr Durchiaufc erforderlich und das Verfabren 
wird in der zweiten Etappe entsprechend langsamer. Daher stellt die beschriebene Methode 
der Bestimmung der 2-Sequenzcn L2 einen KompromiB zwischen benotjgtem Speicheiplatz 
und Bearbeitungsgeschwindigkeit dar. Diese Tatsache wird auch durch das experimentellc 
Laufzeitverhalten des Verfahrens bestatigt. 

2. 1 Weitere Details zur Realisierung der ersten Variante 

In der ersten Etappe der Arbeit des Verfahrens ratlssen alle Elemente der Menge E gefunden 
werden, welche in den Eingangstransaktionen nicht weniger als eine vorgegebene Anzahl 
auftauchen. Da die Nummern und Anzablen der verschiedenen Elemente aus E anf&nglich 
nicht bekannt sind, ist es notwendig, eine Methode zur Speicherung des eigcntlichen Ele- 
mentes sowie der Anzahl der Transaktionen, in der dieses enthalten ist, vorzusehen. In der 
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Realisierung beider Variantcn des Verfahrens crfolgt cin Durchlauf durch alle Eingangstrans- 
aktionen. Zur Speicherung der Elemente und ihrer Zahler wird eine Standardklasse (z.B. aus 
Java) herangezogen - die Hashtable. Diese Klasse erlaubt die Speicherung des Paares 
<Schlii$$el, Wert> 5 welche zur schnellen Suche der Werte den Mechanismus der Hash- 
Tabelle beziiglicb der Schliisselwerte benutzt. In der Realisieruhg des Verfahrens wird als 
Scblttssel ejn Objekt der Klasse (z.B. aus Java) Integer (Wrapper-Klasse ftlr Integer- Werte) 
benutzt, welche mit dem Wert des gewahlten Elementes initialisiert wird, und als Wert - ein 
anderes Objekt der Klasse Integer, welches mit dem Wert seines Z&bJers initialisiert wird. Bei 
der Auswahl eines weiteren Elementes einer Transaktion erfolgt ejn Zugriff zum Objekt der 
Klasse Hashtable, um den Wert iiber den Schltissel zu erhajten, welcher gleich dem gewahl- 
ten Element ist. Wenn ein solcher Wert in der Hash-Tabelle gefunden wurde, so wird es er- 
neut, um Bins erhoht, zuriickgeschrieben. Wenn kein solcher Wert fiir den Scbltissel gciunden 
wurde, so wird in die Hash-Tabelle das Paar eingetragen, welches als Wert den Anfangswert 
des Zablers unter Beriicksichtigung des bereits gewahlten Elementes enthalt- I. 

Zur Vermeidung wiederholter Inkrementierungen des Zahlers einer Transaktion wird jn der 
Realisierung des Verfahrens eine andere Klasse benutzt (z.B. aus Java) - Vector, in der alle 
bereits von einer Transaktion bearbeiteten Elemente gespeichert werden. Bevor e$ den Wert 
in der Hash-Tabelle sucht, versucht das Verfahren das Element in der Instanz der Klasse 
Vector zu fmden. Wenn ein solches Element gefunden wurde, $o bedeutet dies, dass es bereits 
in dieser Transaktion bearbeitct wurde und es findct ein Obergang zum nachsten Element der 
Transaktion stalt Naturlich wird der Vektor der Werte beim Ubergang des Verfahrens zur 
nachsten Transaktion gesaubert. Nach dem Durchgang durch die Transaktionsmenge werden 
nur jene Elemente selektiert, deren ZSblerwerte nicht kleiner als der Minimalwert sind. Die 
gefundenen groflen Elemente werden im Array abgespeichert und werden sortiert, um im 
weiteren Verfahren die Binar suche der Elemente anwenden und auf die Folge der ganzen po- 
sitiven Zahlen 0, N-l abbilden zu konnen, wobei N die Anzahl der gefundenen grofien 
Elemente ist, Aus den groflen Elementen wird die Menge LI der groflen 1-Sequenzen for- 
miert. 

Zur Speicherung der Liste der Nummern der Transaktionen wird in der Realisierung des Ver- 
fahrens die Klasse TransactionList benutzt. Sie erlaubt die Speicherung der Nummem der 
Transaktionen in einem Array, das Hinzufugen einer Nummer an das Ende der Liste, wobei 
vorausgesetzt wird, dass die Nummern. in -aufsteigender Reihenfolge hinzugefligt werden. 
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Diese Voraussetzung ist unabdingbar fur die koixekte Arbeit der Methode der Klasse Transa- 
cionList, welche die Schnittmengenbildung beider Transaktionslisten realisiert. Die Anfangs- 
listen der Transaktionen werden im Verlauf des sequentiellen Durchlaufes durch die Menge 
der Eingangstransaktionen in der Etappe der Konstruktion von L2 gebildet, bierbei werden in 
nattirlicher Weise die Bedingungen der Sortierordnung sichergestellt Im weiteren entstehen 
die neuen Listen wahrend der AusfuhmBg der Schnittmengenoperation. Die Listen der Num- 
mem werden in einem Array gespeichert, aber da die LSnge des Arrays in der Etappe der dy- 
namischen Speicherallokation bestimmt werdra, ist es notwendig, im erforderlichen MaSe 
zusatzliche Felder des Arrays bereitzustellen, indem seine LSnge erhoht ward. Wahrend der 
Erzeugung ciner Instanz der Klasse TransactionList wird ein Array mit etner Anfangsgrofie 
angelegt und schrittweise gefiillt. Bei Erreichen der Maximalanzahl der Nummern wird der 
Speicber erneut bereitgestellt Die maximale Speicherkapazitat des Arrays wird bcispielswei- 
se urn das Zehnfache erhoht, es wird ein neues Array der gleichen maximalen Lange bereitge- 
stellt und darin wird der Inhalt des vorhergehenden Arrays kopiert Das alte Array kann als 
tlberflussig markiert werden (z.B. fur die Virtual Machine in Java). 

In der dritten Etappe der Arbeit des Verfahrens werden alle im vorhergehenden Schritt ge- 
speicherten groflen k-Sequenzen durchgegangen. Uber die gespeicherte Nuxnmer des zweiten 
Elternteils der Sequenz werden, unter Nutzung der oben beschriebenen Datenstruktur, die 
Nummern der ersten und letzten groBen k-Sequenzen gefunden, rait denen die gefundene Se- 
quenz vereinigt werden kann, Weiter wird die Schnittbildungsoperation uber den Listen der 
Transaktionen beider Sequenzen ausgefuhrt. Wenn die Lange der resultierenden Liste klejner 
als der notwendige minimale Supportwert ist, so wird der betrachtete Kandidat sofort verwor- 
fcn, sogar ohne Operation ernes unmittelbaren Kandidaten und der AuszShlung der Anzahl 
der Transaktionen, welche diesen enthalten. Andemfalls erfolgt die Erzeugung der Sequenz 
der Elemente des Kandidaten selbst und die Uberprufung jeder Transaktion aus der Schnitt- 
bildung erhaltenen Liste auf den Inhalt der in ibr enthaltenen Kandidaten-Sequenzen, Wenn in 
ciner Transaktion eine entsprechende Sequenz gefunden wurde, so wird die Nuromer dieser 
Transaktion gespeichert. Auf diese Weise liegt nach der Beatbeitung rines Kandidaten eine 
Liste der Transaktionen vor, welche den Kandidaten enthalten. Wenn die Anzahl solcher 
Transaktionen nicht kleiner der Mindestanzahl ist, so wird dieser Kandidat zusammen mit der 
Nunxmer seines zweiten Elternteils gespeichert. 
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Die oben beschriebenen Aktionen werden filr jeden Kandidaten wiederholt Weim itn Ergeb- 
nis keine einzige grofie Sequenz gefunden wurde, so wird die Arbeit der dritten Etappe des 
Verfabrens beendet und die Ergebnisse werden tiber das Interface ausgegebcn. Es kann zwei 
Gtlinde geben, warum im Verlauf eines Schrittes keine einzige grofie Sequenz gefunden wur- 
de. In der Menge Lk kann keine Sequenz vorliegen, welche einen Kandidaten mit einer ande- 
ren Sequenz bilden konnte, dass heifit, in einein Schritt existiert kein einziger Kandjdat. Ein 
anderer Grund kann die Variante sein, in der im Ergebnis kein einziger Kandidat erne grofie 
Sequenz darstellt. 

Zusammenfassend erweist sich die erste Variante des Verfabrens als schnell auf grofien Da- 
tenmengen und weist einen sparsamen Speicherplatzbedarf auf. Bezttglich Speicherplatz und 
Rechenzeit hinsichtlich der Benutzung von Transaktionslisten zeigen empirische Berechnun- 
gen und experimentelle Resultate, dass auf rcalen Daten ihre Grofie eine Tendenz zur starken 
Verringerung aufweist, da mit Erhohung der Lange der bearbeiteten Sequenzen diese in einer 
zunehmend geringeren Anzahl von Transaktionen enthalten sind und sich folglich die Lange 
der Listen veiringert wie auch die zu ihrer Bearbeitung benfltigte Zeit. Folglich mufl fllr die 
Arbeit der ersten Variante des Verfahrens die Eingangsmenge der Transaktionen in Form ei- 
ner Liste von Sequenzen ganzer Zahlen eingegeben werden, der minimale Supportwert als 
Floatwert und ferner der verfligbare Speicherplatz fur die zweite Etappe des Verfahrens. 

3. Zweite Variante 

Die zweite Variante des Verfahrens, fttr die Figux 4 schematise!! ein Ablaufdiagramm zeigt, 
wurde zum Zweck des Vergleichs tnit der ersten Variante des Verfahrens beztlglich Ge- 
schwindigkejt und Speicherplatz erarbeitct und realisiert. Die zweite Variante kann in Pseu- 
docode wie folgt dargestellt werden: 

h\ = {large 1 -sequences}; 

for (k=2; Lk-2 * 0; k++) do begin 

Ck = candidate-gen(Lk- 1); // neue Kandidaten 
forall transactions teDdo begin 
Ct = subset(Ck, t); 
forall candidates c e Ct do 
c.count-H-; 

end 

Lk = {c € Ck | c. count > minsup} 

end 

answer «ULk; 
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Das dargesteJUe Verfahren ist sehr allgemein und konkretisiert nicht die Methode der Aus- 
wahl der Kandidaten, wclche in einer konkreten Transaktion enthalten sind. Im einfachsten 
Fall kami dies die Durchsicht aller Kandidaten sein mit dem Ziel, diejenigen auszuwShlen, 
welche in der Sequenz der Transaktion enthalten sind, Eine andere Variante ist die Durchsicht 
5 aller Sequenzen einer gegebenen Lange und die Auswahl dcrjenigen aus ihnen, welche Kan- 
didaten darstellen. Es ist klar, dass beide Methoden wegen deren geringer Effizienz nachteilig 
sind; in der Realisierung der zweiten Variante wird daher eine andere Methode beschrieben. 

Die zweite Variante benutzt eine Reihe gleicher Ideen wie die erste Variante. Insbesonderc 
wird zur Berechnung der Menge LI der gleiche Ansatz ohne grofie Anderungen benutzt. Die 
10 gesatnte Bescbxeibung der ersten Etappe der Arbeit der ersten Variante des Verfahrens, wel- 
che oben angefuhrt wurde, gilt auch beziiglich der zweiten Variante. Wie bereits oben er- 
wahnt, benutzt die zweite Variante des Verfahrcns zur Summierung des Supports der Kandi- 
daten die Idee, welche in der ersten Variante nur in der zweiten Etappe zur Generierung der 
Menge der groBen 2-Sequenzen L2 benutzt wurde, 

15 3. 1 Weitere Details zur Realisierunz der zweiten Variante 

Um fur jede Transaktion die MSglichkeit zur Bestimmung der Liste der in ihr enthaltenen 
Kandidaten zu erhalten, wird in der zweiten Variante des Verfahrens eine spezielle Daten- 
struktur benutzt. Beginnend mit der zweiten Etappe des Verfahrens wird jede Transaktion als 
Liste der Nummera der im vorhergehenden Schritt des Verfahrens gefundenen k-Sequenzen 
20 dargestellt. Unter Durchsicht der Paare dieser k-Sequenzen und deren Zusammenfilgung ge- 
ra&B der oben beschriebenen Methode der Kandidatengenerierung kann man alle Kandidaten 
der LSnge k+1 erhalten, welche in einer bestimmten Transaktion enthalten sind. Jedoch ist zur 
Tretmung der Kandidaten die Liste der grofien k-Sequenzen als zweidimensionales Array von 
Werten organisiert Die resultierende Datenstruktur wird im nachsten Beispiel illustriert: 

25 Angenommen, die Eingangsmenge der Transaktionen enthalt folgende Transaktion: 
<3 1321> 

Es wird weiterhin angenoramen, dass in der zweiten Etappe der Arbeit des Verfahrens festge- 
stellt wurdc, dass die in dieser Transaktion enthaltenen Sequenzen <3 1>, <3 2>, <1 2> und 
<1 1> groC sind und jeweils die Numtnern 5, 7, 3 und 1 besitzen. Dann wurde im Ergebnis 



-17- 



der zweiten Etappe der Arbeit des Verfahrens folgende Datenstruktur eizeugt, welche der 
gegebenen Trans aktion entspricht: 

1. 57 

2. 3 1 
5 3. 7 5 

4. - 

Die Anzahl der Zeilen in dieser Struktur ist gleich der Anzahl der Elemente in der Transacti- 
on wahrend der Etappe der Konstruktion der Mengc L2, In. den weiteren Etappen ist diese 
Menge gleich der Zahl der Zeilen in der vorhergehenden Struktur fur diese Transaktion* Jede 

0 Zeile enthalt die Nummern der grofien Sequenzen, welche rait diesem Element bcginnen oder 
mit dieser Zeile in der Struktur, welche im vorhergehenden Schritt erzeagt wurde, In jedem 
Schritt werden die Paare der Nummern der groflen Sequenzen des vorhergehenden Levels 
betrachtet und das Verfahren durchsucht alle Paare von Nummem, welche vereinigt werden 
konnen. Der Test auf die Mogiichkeit zur Verkntipfung wird auf Basis des glejchen Prinzips 

5 wic in der ersten Variante des Verfahrens ausgefiihxt. 

Eine derartige Struktur wird fiir jede Transaktion gebildet und wird in jedem Schritt des Ver- 
fahrens aktualisiert. Die Erststruktur wird in der zweiten Etappe des Verfahrens erzeugt und 
das ist deren einziger Unterschied zur entsprechenden Etappe der ersten Variante des Verfah- 
rens. In einem Schritt des Verfahrens werden nacheinander alle Transaktionen der Eingangs- 

10 menge behandclt, wobei die beschriebene Struktur genutzt wird. Schrittweise wird jedes Ele- 
ment jeder Zeile gewahlt und danach werden die Elemente jeder nachfolgenden Zeile durch- 
sucht. Wenn das derart gewahlte Paar cinen Kandidaten darstellen kann 3 so wird der Zahler 
seines Supports urn Eins erbGht. Zur Verhinderung einer mehrfacben Inkrementierung des 
ZMhlers wahrend der Bearbeitung einer Transaktion kann die Idee der ersten Variante des Ver- 

" 5 fahrens herangezogen werden - fiir jeden Kandidaten wird die Nummer der letzten inkremen- 
tierenden Transaktion gespeichert 

Auf diese Weise zeigt sich, dass in der zweiten Variante des Veifahrens zur Laufzeit gar koi- 
ne ree]je Generierung von Kandidaten-Sequenzen vonnoten ist, da dies nicht fur die Summie- 
rung der. Supportwerte benotigt wird - im Gegensatz zura ersten Verfahren. Die jm k-ten 

30 

Schritt gefundenen groBen k-Sequenzen werden in Fonn der Paare jhrer Eltern gespeichert. 
Dadurch wird Speicherplatz gespart, da in der Praxis die groflen k-Sequenzen am Endc der 
eigentlichen Arbeit des Verfahrens entstehen konnen, wahrend des Durchgangs von der Men- 
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ge LI zur Mengc Ln und keinen iiberflussigen Speicherplatz wahrend der Arbeit des 
Hauptzyklus des Verfahrens einnehmen. 

Schwierig kann sich der ProzeB des Fiillens der benotigten Struktur gestalten, da wahrend der 
Bearbeitung der Transaktion die Nummern der Kandidaten bekannt sind, nicht aber die der 
5 groBen Sequenzen, welche erst nach der Bearbeitung aller Transaktionen bestimmt werden, 
Somit werden wahrend der Bearbeitung in die erneuerte Struktur die Nummern der in ihnen 
enthaltenen Kandidaten eingetragen. Nach Bearbeitung aller Transaktionen der Eingangs- 
menge mtissen die in der Struktur enthaltenen Nummern unter Beriickstchtigung der Kandi- 
daten, welche die Supportbedingung nicht erfullten, korrigiert werden. Der Teil des Verfab- 
10 rens, in welchem die Nummern korrigiert werden, kann wie folgt dargestellt werden: 

m = 0; // Akkumulator der Korrektur 

forall ce Ck do begin // fur jeden Kandidaten 

if c.count>=minsup then ^correction = -m-1 

else m++; 

15 end 

Nach Ausfiihning dieses Fragments des Verfahrens ist filr jeden Kandidaten der Wert der 
Korrektur bekannt, welcher von der Nummer des Kandidaten abgezogen werden muB, urn die 
Nummer der groBen Sequenz zu erhalten. In der Tat, urn die Nummer der Sequenz aus der 
Nummer des Kandidaten zu erhalten, muB die Anzahl der den Test nicht bestandenen Kandi- 
daten abgezogen werden, deren Nummern kleiner der Nummer des betrachteten Kandidaten 
siiuL Die letzte Etappe der Erneuerung der Struktur der Transaktionen ist die Transformation 
der Nummern der Kandidaten in die Nummern der groflen Sequenzen, gleichzeitig mit der 
Entfernung der Nummern der nicht-groBen Kandidaten und der Sortierung* 

Die Sortierung dient der Beschleunigung der Suche der paarweisen Sequenzen wfihrend der 

25 

Bearbeitung der Transaktionsstrukturen, dass heiBt, derjenigen Sequenzen, mit denen die ge- 
wShlte Sequenz vereinigt werden kann. Ohne die Sortierung der Zeilen der Strukturen der 
Transaktion wiirde die Suche des zweiten Elternteils einen vollstandigen Durchgang aller 
nachfolgendeu Zeilen mit Prtifung der Bedingung der Vereinigung bedeuten. Mit Hilfe der 
Sortierung der Werte der Nummern der groBen Sequenzen wird erne steigende Ordnung ein- 

30 

gefuhrt imd folglich ergibt sich die Mflglichkeit, mittels BinSrsuche in schnellster Weise einen 
Wert in der Zeile zu fmden, mit welchem beginnend die Nummern der Eltern-Sequenzen ge- 
speichert werden. Weiter wird ein geordneter Durchgang durch die Zeile ausgefiihrt, bis eine 
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Nummer ejner Sequenz grofier der maximal mOglichen Elternnummer fur den gewShlten er- 
sten Eltemteil gefunden wird. Experimentelle Daten haben gezeigt, dass die eingefiihrte Sor- 
tierung, welche nicht unbedingt filr die Arbeit des Verfahrens notwendig ist, die Arbeit in den 
Fallen beschleunigt, in denen in der mit einer gewissen. Transaktion verbundenen Struktur 
nacheinander einige sehr lange Zeilen enthalten sind. In der ersten Variante, obne Sortierung, 
konnte ein deutlicher Abfall der Effektivitat in einigen Teilen der Transaktionsmenge bcob- 
achtet werden, weswegen die Gesamtzeit der Arbeit des Verfahrens stark verlStagert wird. 
Nach der Realisierung der Sortierung arbeitete das Verfahren auf solchen Daten urn ein. Mehr- 
faches scbneller, abhangig von denkonkreten Eingangstransaktionsmengen. 

W&irend der Bearbeitung der Transaktionsstrukturen werden nacheinander die Nummem der 
grofien Sequenzen ausgewMhlt, welche im vorhergehenden Schritt des Verfahrens gefunden 
worden sind und welche in der laufenden bearbeiteten Transaktion enthalten sind. Ftir jede 
gewahlte Nummer entsteht die Aufgabe der Bestimmung der Nummcrn des ersten und des 
letzten Eltemteils, mit denen die Sequenz mit der gewablten Nummer vereinigt werden kann. 
Aufierdem muB fur jeden Kandidaten die Nummer bekannt sein, urn den Zahler des Supports 
erhohen zu kOnnen. Teilweise wird diese Aufgabe wie in der ersten Variante des Verfahrens 
gelost Jedoch wird in der Realisierung der zweiten Variante eine leicht abgewandelte Idee 
bcnutzt, unter Beriicksichtigung der Notwendigkeit, die Nummer des Kandidaten zu kennen. 
In der ersten Variante ist die Nummer des Kandidaten bekannt, da im Hauptzyklus faktisch 
ein Durchlauf durch die Kandidatenmenge stattfindet und zur schnellen Ermittlung der ersten 
und letzten Nummer moglicher Eltern wird in jedem Schritt eine spczielle Struktur emeuert. 
In der zweiten Variante wird eine modifmerte Struktur atigewandt, unter Berucksicbtigimg 
der Notwendigkeit der Speicherung der Nummem der entsprechenden Kandidaten. AuBer den 
Nummem mSglicher Eltem wird in jedem Eintrag dieser Struktur gleichfalls die Nummer des 
ersten Kandidaten, welcher erzeugt werden kann, gespeicheit Auf diese Wejse k6nnen tiber 
die Nummer des zweiten Eltemteils einer grofien Sequenz gleich die Nummem der Eltern 
ermittelt werden, mit welchen die betrachtete Sequenz vereinigt werden kann, sowie die 
Nummem der entsprechenden Kandidaten. 

Die zwejte Variante des Verfahrens erfordert, wie auch die zweite Etappe des ersten Verfah- 
rens, die Allokation von Speicher fiir die Werte der Zahler des Supports und das Array der 
Nummem der Transaktion, welche als letzte den ZShler inkrementierte. 
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4. Beschreibung eines Prozramminterfaces 

Das Programminterface wird in Form eines Beispiels der Benutzung des Verfahrens in einem 
Java-Programm betrachtet. 

Die Klasse TransactionSetSeq wird zur Speicherung des Satzes dcr sequentiellcn Eingang- 
5 stransfonnationen benutzt. Eine Instanz der Klasse wird mittels folgender Anweisung reali- 
sicrt: 

TransactionSetSeq tss = new TransactionSetSeqQ; 

Nun ftlgen wir alle Transaktionen des Eingangssatzes binzu: 
for (int i=0;i< <Anzahl Transaktionen>;i++) { 

1 0 Jede sequentielle Transaktion wird als eine Instanz der Klasse ItemSetSeq reprasentiert : 
TtemSetSeq iss ■ new ItemSetSeqO; 

Die Elemente der Transaktionen sind ganze Zahlen - zum Hinzufugen eines neuen Elementes 
zur Transaktion dient folgende Methode der Klasse ItemSetSeq: 

void addltemftnt item); 

15 Wir fugen alle Elemente der aktuellen Transaktion hinzu: 

for (int j=0u< <Anzahl der Elemente der aktuellen Transaktion>; 
iss.addItem(<Nummer des Elementes>); 

Zum Hinzufugen einer Transaktion zum Transaktionssatz wird folgende Methode der Klasse 
TransactionSetSeq benutzt: 

20 void addTransaction(ItemSetSeq iss); 

tss.addTransactionfiss); 

> 

Zur Berechnung der Sequenzen muB eine Instanz der Klasse Sequential oder Sequential er- 
zeugt werden: 
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Sequential seq = new Sequential); 
Sequential seq2 = new Sequential2Q; 

Zum Starten des Verfahrens ist es notwendig, folgende in den $Qassen Sequential und Se- 
quential! enthaltene Methode aufeurufen: 

5 SequentialResuli SequentialAlgfTransactionSetSeq tss t double minsupp); 

wobei 

tss - Eingangsmenge der Transaktionen, 

minsupp - minimaler Supportwert. 
SequentialResuli seqResult - seq.SequentialAlg(tss s minsupp); 
10 oder 

SequentialResuli seqResult = seq2SequentiaIAtg(tss,minsupp); 

Das Ergebnis der Arbeit des Verfahrens wird in dera Objekt der Klasse SequentialResult ge- 
speichert. Zum Zugriff der gefundehen Sequenzen entMlt die Klasse SequentialResult fol- 
gende Methode: 

1 5 ItemSetSeqList getLargeSequencesQ; 

ItemSetSeqList issList = seqResultgetLargeSequencesQ; 

Die Klasse ItemSetSeqList enthalt die Methoden: 

int getSizeQ; - liefert die Anzahl der gefundenen Sequenzen, 
IiemSetSeq gethemSetAt(int index); - liefert die Sequenz der Nummer index. 
20 for (int i=0;r < issListgetSizeQ; /++; { 

ItemSetSeq iss = issLisLgetltemSetAt(i); 

Zum Zugriff der Sequenz enthalt die Klasse ItemSetSeq folgende Methode: 
int getI.temAt(int index); 
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Folgende Methode liefert die Lange der Sequenz: 

int getSizeQ: ■...--*"""' 
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for (intj=0;j<iss.getSizeO}]++) 

int item = iss.getltetnAtG); 

} 

Den Wert des Zahlers fur den Support Itefert folgende Methode der Klasse ItemSetSeq: 
int getSupportCountO; 

Der eigentliche Supportwert support fiir jede Sequenz ist der Quotient des Wertes des Sup- 
port-ZShlers und der Anzahl aller Transaktionen. 

J. Beispiel: Clickstreamanalyse 

Im weiteren wird anhand der Figuren 1 und 2 die Anwendung des beschriebenen Verfabrens 
am Beispiel einer Clickstreamanalyse von Webservern erlautert. 

Urn iiber das Internet eine Website auftunifen, benotigt der Nutzer einen Web-Browser 10, 
z.B. Netscape Navigator, mit dem er sich mit einem Web-Server 20, z.B. dem Apache Web- 
Server, verbindet Webserver speichem die Infomoationen iiber abgerufen HTML-Seiten einer 
Website in Datenbanken 30 oder Logfiles 40. Die Information iiber die abgerufenen HTML- 
Seiten wird hierbei in einer Tabelle gespeichert. Die Spaltcn entsprechen den Informationen 
ttber die abgerufene Seite wie beispielsweise Datum und Uhrzeit, URL der aufgerufenen 
HTML-Seite, Referer-URL, Typ des Web-Browsers. Die Zeilen entsprechen den abgerufenen 
HTML-Seiten selbst. Uber verschiedene Mechanismen, die hi ex nicht welter ausgefubrt wer- 
den sollcn, ist es mOglich, Websessions zu identifizieren und jeder abgerufenen Seite zuzu- 
ordnen. Eine Websession ist eine Sequenz der von einem User der Website hintereinander 
abgerufenen HTML-Seiten, 

Ziel der Clickstreamanalyse ist das Herausfinden typischer Pfade, entlang derer sich die User 
einer Website hauptsSchlich bewegen. Beispielsweise kann es fiir einen E-Commerce Shop 
passieren, dass viele Nutzer iiber die Hauptseite den Shop betreten, in eine gewisse Produkt- 
kategorie gehen, ein spezielles Produkt in Detailansicht betrachten und danach - den Shop 
verlassen. Das lasst darauf schlieflcn, dass das bctrachtete Produkt die Erwartungen verfehlte 
und seine Presentation drmgend verbessert werden muB. Wenn Nutzer zyklische Pfade wah- 
Jen, lasst sich oftmals daraus schliefien, dass^ie der Shop uniibersichtlich aufgebaut ist, usw. 
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Mit Hilfe eines Datenzugriffs-Moduls 50 greift nun eine mittels eines Programms implemen- 
tierte Date-Mirung-Anwendung 60, welche die eigentliche Clickstreamanalyse ausfuhrt, auf 
die Daten der abgerufenen HTML-Seiten zu, welche sich entweder in der Datenbatik 30 oder 
in Logfiles 40 befinden. Hierbei ftlhrt das Datenzugriffs-Modul 50 verschiedene Transferors 
tionen aus, wie beispielsweise das Auflosen von IP-Adressen, das Erkennen von Datumsfor- 
maten sowie die oben beschriebene Extraktion von Websessions, 

Die Mining- Anwendung 60 berechnet nun die haufigsten Pfade der Nuteer durch die Website. 
Das Herausfinden der typischen Pfade in Websites stellt eine Aufgabe der Sequenzanalyse 
dar, Hierbei ist E = {el, e2, .^em} die Menge aller HTML-Seiten einter Website, Jede 
Transaktion di entspricht einer Websession, deren Elemente eine Sequent <so, S], ♦ sv> von 
HTML-Seiten bilden. Die Gesamtzahl der Transaktionen D entspricht alien Websessions des 
Webservers, Fur ein einfaches Beispiel sind die Clickstreain-Transaktionen in 80 bzw. (nach 
Abbildungen 90 und 100 in den Bereich der ganzen Zahlen) in 110 dargestellt. Die Aufgabe 
der Clickstreamanalyse besteht mm darin, fur einen vorgegebenen minimalen Supportpara- 
meter s alle groBen Sequenzen von HTML-Seiten zu finden, welche die Ergebnissc 70 der> 
Mining-Analyse bilden. Ftir das Beispiel der CUckstream-Tabelle 80 sind die gefiindenen 
groBen Sequenzen in 120 bzw. (nach Rtickabbildung) in 130 fUr einen minimalen Support- 
wcrt von 50 % angegeben. Diese stellen die typischen Nutzerpfade der Website dar, deren 
Analyse - wie oben dargelegt - zu einer Verbcsserung der Stmktur der Website genutzt wer- 
den kann. Insbesondere ktfnnen die Ergebnisse dixekt in den Webserver eingebaut werden, 
beispielsweise in Form von empfohlenen HTML-Seiten (Recommender-Systeme). 

Zur Berecbnung der groBen Sequenzen ist das in der Erfindung beschriebene Verfahren sehr 
gut geeignet, insbesondere deswegen, weil es groBe Datenmengen analysieren kann. Geradc 
Logfile-Tabelien stark besuchter Websites weisen aber h&ufig Millionen abgerufener HTML- 
Seiten auf und stellen somit hochste Anspruche an Sequenzanalyseverfahren. Die Auswertung 
dieser Infonnationen mittels Sequenzanalyse war daher zumeist auBerordentlich rechenzei- 
tintensiv und auf SonderMe (Sequenzen der L8nge 2, nut wenige Websessions, usw.) be- 
schrSnkt. Das beschriebene Verfahren iiberwindet diese Beschrankung fur nahezu alle auf 
derzeitigen Webservern anfallenden Clickstream-Daten. 
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Die in der vorstehenden Beschreibung, den Ansprtichen und der Zeichnung offenbarten 
Merkmale der Erfindung ktfnnen sowqhl einzeln als auch in beliebiger {Combination fllr die 
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Verwirklichung der Erfindung in ihren verschicdcnen Ausfuhjungsformen von Bedeutung 
sein. 
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Aflspruche 

1. Verfahren zura. Ermitteln einer Menge grofler Sequenzen aus einer elektronischen Data- 
bank mit einer Folge D={dl, dn} von Transaktionen di (1 <, i < n) in einem Computer- 
system mit einem implementierten Abfragemodul, wobei jede der groflen Sequenzen auf 
der Folge D von Transaktionen di einen Stutzwert aufwcist, der groBer oder gleich einem 
vorgegebenen Stutzwert S ist, wobei jede der Transaktionen di der Folge D eine Sequcnz 
von Elementen eines Satzes E={el, ... , em} von Elementen ej (1 < j < m) ist und wobei 
das Verfahren die folgenden Schritte umfaflt: 

a) Ermitteln einer Menge LI groBer Sequenzen aus der Folge D von Transaktionen, 
wobei die groflen Sequenzen der Menge LI jeweils genau ein Element des Satzes E 
umfassen und ein zugehoriger Stutzwert S L j auf der Folge D von Transaktionen je- 
weils grflfier oder gleich dem vorgegebenen Sttitzwert S ist; 

b) Ermitteln einer Menge L2 groBer Sequenzen aus der Folge D von Transaktionen, 
wobei die groBen Sequenzen der Menge L2 jeweils genau zwei Elemente des Satzes 
E in einer jewei.li.gen Reihenfolge R^ umfassen und ein zugehoriger Stiltzwert Sui 
auf der Folge D von Transaktionen jeweils groBer oder gleich dem vorgegebenen 
Stutzwert S ist und wobei beim Ermitteln der Menge L2 grofler Sequenzen nur Se- 
quenzen berucksichtigt werden, die als Teilsequenz eine der groBen Sequenzen der 
Menge LI umfassen; 

c) Ermitteln einer Menge Lk (k > 2) groBer Sequenzen aus der Folge D von Transaktio- 
nen, wobei die groBen Sequenzen der Menge Lk jeweils genau k Elemente des Sat- 
zes E in einer jeweiligen Reihenfolge Rue umfassen und ein zugehoriger Stutzwert 
Sue auf der Folge D von Transaktionen jeweils groBer oder gleich dem vorgegebenen 
Stutzwert S ist, wobei beim Ermitteln der Menge Lk nur Sequenzen beriicksichtigt 
werden, die als sich teilweise iiberlappende Teilsequenzen zwei der groBen Sequen- 
zen der Menge Lk-1 mit der jeweiligen Reihenfolge Rum umfassen; und 

d) Wiederholen des Schrittes c) fur k=k+l und Abbrechen des WiederhoJens des 
Schrittes c) beim ErfUUen einer vorgegebenen Abbruchbedingung. 

2. Verfahren nach Anspruch 1 , wobei beim Ermitteln der Menge L2 im Schritt b) bzw. der 
Menge Lk im Schritt c) die Folge D von Transaktionen nach Kandidaten-Sequenzen 
durchsucht wird, die als sich teilweiseuberlappende Teilsequenzen zwei der groBen Se- 
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quenzen der Menge LI bzw. der Menge Lk-1 umfassen, und wobei fUr jede erstmalig ge- 
fundene Kandidatcn-Sequenz ein zugehoriger Stiltzwert-Zabler registricrt wird und der 
zugehtirige Sttitzwert-Zahler erhflht wird, wenn die jeweilige Kandidaten-Scquenz beim 
Durchsuchen der Folge D von Transaktionen emeut ermittelt wird. 

5 

3, Verfahren nach Anspmch 1, wobei: 

- beim Ermitteln der Menge L2 im Scbritt b) die Folge D von Transaktionen nach Kan- 
didaten-Sequenzen durchsucht wird, die als Teilsequenz eine der groflen Sequenzen 
der Menge LI umfassen, und fur jede erstmalig gefrndene- Kandidaten-Sequenz ein. 

1 0 zugehoriger Sttttzwert-Zahler registriert wird und der zugehOrige S tiitzwert-Zahler er- 

hoht wird, wenn die jeweilige Kandidaten-Sequenz beim Durchsuchen der Folge D 
von Transaktionen erneut ermittelt wird; und 

- beim Ermitteln der Menge Lk (k > 2) im Schritt c) eine Kandidatenmenge von Se- 
quenzen gebildet wird, die samtliche paarweise Kombinationen der Sequenzen der 

15 Menge Lk-1 umfafit, aus der Folge D von Transaktionen die Transaktionen bestimmt 

werden, die wenigstens eine Sequenz der Kandidatenmenge umfassen, und der Stlitz- 
wert fur die Sequenzen der Kandidatenmenge ermittelt wird, ftlr die eine diese Se- 
quenz umfassende Transaktion gefimden wurde. 

20 4, Verfahren nach Anspmch 2 Oder 3, wobei fiir jeden zugehflrigen Stiitzwert-Zahler ein 

Anzeigewert erzeugt und aktualisiert wird, der anzeigfc fUr welche Transaktion der zuge- 
borige Sttitzwert-Zahler zuletzt erhoht wurde. 

5 . Verfahren nach Anspruch 3 odcr 4, wobei aus der Kandidatenmenge von Sequenzen, die 
25 sitmtlichen paarweisen Kombinationen der Sequenzen der Menge LI entsprechen, nur 

Sequenzen bcrilcksichtigt werden, deren erstes Element in einem vorgegebenem Werte- 
bereich liegt. 

6. Computerprogramm-Produkt zum Ermitteln einer Menge groJJer Sequenzen aus einer 
30 clcktronischen Datenbank mit einer Folge D={dl, dn} von Transaktionen di (1 £ i ^ 

n) in einem Computersystem mit einem implementierten Abfragemodul, wobei jede der 
groflen Sequenzen auf der Folge D von Transaktionen di einen Stutzwert aufweist, der 
grofler oder gleich einem vorgegebenen Sttitzwert S ist, wobei jede der Transaktionen di 



der Folge D eine Sequenz von Elementen ernes Satzes E={el > , em} von Elementen ej 
(1 < j < m) ist und wobei das Produkt die folgenden Mittel umfaBt: 

a) auf einem elektronischen Speichermedium aufgezeichnete Mittel zum Ermitteln ei- 
ner Menge LI groBer Sequenzen aus der Folge D von Transaktionen, wobei die gro- 
J3ei) Sequenzen der Menge LI jeweils genau ein Element des Satzes E umfassen und 
ein zugehOriger Sttltzwert S L i auf der Folge D von Transaktionen jeweils grtffier oder 
gleich dem vorgegebenen Stutzwert S ist; 

b) auf dem elektronischen Speichenncdium.aufgezeichnete Mittel zum Ermitteln einer 
Menge L2 grofler Sequenzen aus der Folge D von Transaktionen, wobei die groBen 
Sequenzen der Menge L2 jeweils genau zwei Elemente des Satzes E in einer jewcili- 
gen Reihenfolge R u umfassen und ein zugehariger Stutzwert Sl2 auf der Folge D 
von Transaktionen jeweils groBer oder gleich dem vorgegebenen Stutzwert S ist und 
wobei beim Ermitteln der Menge L2 groBer Sequenzen nur Sequenzen beriicksichtigt 
werden, die als Teilsequenz eine der groBen Sequenzen der Menge LI umfassen; 

c) auf dem Speichermedium aufgezeicbnete Mittel zum Ermitteln einer Menge Lk (k > 
2) groBer Sequenzen aus der Folge D von Transaktionen, wobei die groBen Sequen- 
zen der Menge Lk jeweils genau k Elemente des Satzes E in einer jewejligen Reihen- 
folge Ru umfassen und ein zugehOriger Stutzwert S L k auf der Folge D von Transak- 
tionen jeweils griJBer oder gleich dem vorgegebenen Stutzwert S ist, wobei beim Er- 
mitteln der Menge Lk nur Sequenzen beriicksichtigt werden, die als sich teilweise 
uberlappende Teilsequenzen zwei der groBen Sequenzen der Menge Lk-1 mit der je- 
weiligen Reihenfolge Ruc.iumfassen; und 

d) auf dem elektronischen Speichermedium aufgezeichnete Mittel zum Wiederholen 
des Schrittes c) fur k=k+l und Abbrechen des Wiederholens des Schrittes c) beim 
Erflillen einer vorgegebenen Abbruchbedingung. 

Integriertes Sequenzanalysesystem mit: 

- einer elektronischen Datenbank mit einer Folge D={dl, dn} von Transaktionen di 
(1 £ i £ n), wobei jede der groBen Sequenzen auf der Folge D von Transaktionen di ei- 
nen Stutzwert aufweist, der grdfler oder gleich einem vorgegebenen Stutzwert S ist, 
wobei jede der Transaktionen di der Folge D eine Sequenz von Elementen eines Sat- 
zes E={el em} von Elementen ej (1 £ j £ m) ist; 
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- einem Abfragemodul, welches eine mit der Datenbank gekoppelte Abfrageeinrichtung 
und eine Verarbeitungsemrichtung zum Erfassen von Abfrageparametern und zum Er- 
zcugen von Abfragen an die Abfrageeinrichtung umfaBt; 

- Mitteln zum Ermitteln einer Menge LI groBer Sequenzen aus der Folge D von Trans- 
5 aktionen, wobei die groBen Sequenzen der Menge LI jeweils genau ein Element des 

Satzes E umfassen und ein zugehtfriger Stiitzwert Sli auf der Folge D von Transaktio- 
nen jeweils grofler oder gleich dem vorgegebenen Stutzwert S ist; 

- Mitteln zum Ermitteln einer Menge L2 groBer Sequenzen aus der Folge D von Trans- 
aktionen, wobei die grofien Sequenzen der Menge L2 jeweils genau zwei Elemente 

1 0 des Satzes E in einer j eweiligen Reihenfolge R u umfassen und em zugehoriger Sttltz- 

wert Su auf der Folge D von Transaktionen jeweils grGBer oder gleich dem vorgege- 
benen Stiitzwert S ist und wobei beim Ermitteln der Menge L2 groBer Sequenzen nur 
Sequenzen beriicksichtigt werden, die als Teilsequenz eine der groBen Sequenzen der 
Menge LI umfassen; 

1 5 - Mitteln zum Ermitteln einer Menge Lk (k > 2) grofier Sequenzen aus der Folge D von 

Transaktionen, wobei die groBen Sequenzen der Menge Lk jeweils genau k Elemente 
des Satzes E in einer jeweiligen Reihenfolge R L k umfassen und ein zugehoriger Stiitz- 
wert S T .k auf der Folge D von Transaktionen jeweils grOBer oder gleich dem vorgege- 
benen Stutzwert S ist, wobei beim Ermitteln der Menge Lk nur Sequenzen bertlck- 

20 sichtigt werden, die als sich teilweise tiberlappende Teilsequenzen zwei der grofien 

Sequenzen der Menge Lk-1 mit der jeweiligen Reihenfolge R^k-i umfassen; und 
. - Mitteln zum Wiederholen des Schrittes c) fiir k-k+1 und Abbrechen des Wiederholens 
des Schrittes c) beim Erfiillen einer vorgegebenen Abbruchbedingung, 
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Zusammenfassung 

Die Erfmdung betrifift eine Verfabren und eine Vorrichtung zum Ermitteln einer Menge gro- 
Ber Sequenzen aus einer elektronischen Datenbank mit einer Folge D={dl, dh} von Trans- 
aktionen di (1 < i £ n) in einem Computersystem mit einem implementierten Abfragemodul, 

5 wobei jede der grofien Sequenzen auf der Folge D von Transaktionen di einen Stiitzwert auf- 
weist, der groBer oder gleich einem vorgegebenen Stiitewert S ist, wobei jede der Transaktio- 
nen di der Folge D eine Sequenz von Elementen eines Satzes E-{el, em} von Elementen 
ej (1 < j < m) ist. Erne Menge Lk (k > 2) grofier Sequenzen wird aus der Folge D von Trans- 
aktionen ermittelt, wobei die groBen Sequenzen der Menge Lk jeweils genau k Elemente des 

10 Satzes E in. einer jeweiligen Reibenfolge R L k umfassen und ein zugehariger Stutewert St,k auf 
der Folge D von Transaktionen jeweils groBer oder gleich dem vorgegebenen Sttttzwert S ist, 
wobei beim Ermitteln der Menge Lk nur Sequenzen beriicksichtigt werden, die als sich tejl- 
weise uberlappende Teilsequenzen zwei der groBen Sequenzen der Menge Lk-1 mit der je- 
weiligen Reihenfolge R L k.iumfassen. 
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